iT邦幫忙

第 12 屆 iThome 鐵人賽

1

馬可夫決策過程 Markov decision process MDP

  • 在概率論和統計學中,馬可夫決策過程(英語:Markov Decision Processes,縮寫為MDPs)提供了一個數學架構模型,用於面對部份隨機,部份可由決策者控制的狀態下,如何進行決策,以俄羅斯數學家安德雷·馬爾可夫的名字命名,是馬爾科夫鏈的一種擴展。link

  • 在經由動態規劃與強化學習以解決最佳化問題的研究領域中,MDP是一個有用的工具。廣泛應用於機器人學,自動化控制,經濟學和製造業的一種工具。

  • MDP的一個重要觀念:”未來只取決於當前” link

    • 為什麼強化學習會跟MDP有關呢?我們先看什麼是State(狀態)

    • 因為我們的大腦一開始並不知道環境的狀態是怎麼樣,所以只能從以前所經歷的observation,action,reward跟現在所得到的observation, reward來去當作現在的狀態

    • 那如果我們要去估計下一個狀態(St+1)是怎麼樣的,是不是就要把S1~St的所有狀態給考慮進去,這樣模型便會非常的大,這時候Markov假說就有用了,Markov說的:未來只取決於當前,所以我們可以假設 下一個狀態只跟現在這個狀態有關,有這個假設就可以把模型給縮小,不過這個假設也只是理想的狀況下。
      因此我們可以把強化學習想像成是MDP的一種模型,因為我們從現在的狀態來知道未來的狀態,未來知道了,相對的,我們要找到最好的動作也變得有可能了。所以RL就變成是解MDP的一種模型了。

強化學習 Video

強化學習(英語:Reinforcement learning,簡稱RL)是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。 其靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。

強化學習和標準的監督式學習之間的區別在於,它並不需要出現正確的輸入/輸出對,也不需要精確校正次優化的行為。強化學習更加專注於在線規劃,需要在探索(在未知的領域)和遵從(現有知識)之間找到平衡。

強化學習其實就是訓練一個AI 可以通過每一次的錯誤來學習,就跟我們小時候學騎腳踏車一樣,一開始學的時候會一直跌倒,然後經過幾次的失敗後,我們就可以上手也不會跌倒了。

wiki

應用

  • Robot 學習:
  • Game
    • AlphaGo圍棋
    • Tetric (俄羅斯方塊)
    • 五子棋
  • 對話系統:
    • 有些已經把RL用在對話系統上,利用互動式學習,隨著時間不斷的提升對話系統
      https://ithelp.ithome.com.tw/upload/images/20201227/20130601yKZ0EDMdSS.png
  • 醫療:
    • 利用RL來尋找最佳的治療方案
  • Google auto ML:
    • 使用RL來為計算機視覺和語言建模生成神經網路架構
  • 自動駕駛

State / Action / Reward

例如走迷宮, Agent 嘗試在迷宮, 訓練Agent 取得最多的獎 total rewards

1.Agent 取得目前狀態 State St 或 Obersavation
2.Agent 採取行動 Action At
3.Enviroment (環境) 反饋 Rewards rt
https://ithelp.ithome.com.tw/upload/images/20201226/20130601SibfXy2gwi.png

例如五子棋

https://ithelp.ithome.com.tw/upload/images/20201226/20130601ws7Xm4yJKv.png

https://ithelp.ithome.com.tw/upload/images/20201226/20130601XAWoeFmbIS.png

強化學習常用算法

  • 蒙地卡羅方法 Monte-Carlo Learning
  • 時差學習Temporal-Difference Learning
  • SARSA (State–action–reward–state–action)
  • Q-Learning
註:本文是搜尋數個網站及各種不同來源之結果,著重在學習,有些內容已難辦別出處,我會儘可能列入出處,若有疏忽或出處不可考,請聯絡我, 我會列入, 尚請見諒。

上一篇
Day 26 - 當AI有了常識之後, 超越人類? -GAN(2)
下一篇
Day 28 - 強化學習 Reinforcement Learning(2)
系列文
AI 高中生的自我學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言